Rank in Wordlist | Word | Rank in Wordlist | Word |
---|---|---|---|
1 | að | 26 | verið |
2 | og | 27 | eða |
3 | í | 28 | hafa |
4 | á | 29 | eftir |
5 | er | 30 | svo |
6 | sem | 31 | þess |
7 | til | 32 | þetta |
8 | við | 33 | Ég |
9 | um | 34 | sér |
10 | ekki | 35 | sé |
11 | með | 36 | fram |
12 | það | 37 | upp |
13 | fyrir | 38 | þegar |
14 | en | 39 | úr |
15 | var | 40 | Í |
16 | því | 41 | vera |
17 | af | 42 | eins |
18 | eru | 43 | verður |
19 | ég | 44 | þar sem |
20 | frá | 45 | hafi |
21 | hefur | 46 | voru |
22 | hann | 47 | kl. |
23 | þar | 48 | þeim |
24 | þá | 49 | hjá |
25 | Það | 50 | þeir |
The table shows the top-50 words of the corpus. Usually we see stopwords.
Language: Afrikaans
This list is a good candidate for a first stopword list for a language.
Usually a small, balanced corpus is enough to get a good list of high frequent words. But if the small corpus has some very prominent topic, this will be visible even in the top word lists.
select w_id-100 as rank_in_wordlist, word from words where w_id>100 order by w_id limit 50;
3.4 Sample words for different frequency ranges